Loading...
2024. 4. 8. 02:19

데이터 속에 숨은 편향

1. introduction 2016, big data’s disparate impact에서 연구 데이터가 좋으면 모형의 결과도 좋고 편향이 많으면 결과도 그럴 것 사회 자체에서 가지는 많은 편향들이 데이터의 형태로 AI 모델에 들어간다 정확히 어디 있는지는 모르겠지만 숨겨져있는 어떤 패턴에 의해 알고리즘을 사용하다보면 소수의 어떤 그룹들이 의도하지 않은 차별을 당한다 2. bias source 2-1) target variable target variable이나 class label을 정의하는 순간부터 bias가 들어갈 수 있다 예를 들어 ‘good employee’는 어떻게 정의해야? 누구는 일을 잘하는 사람, 누구는 이 회사에 오랜 기간 일을 하는 사람, 누구는 다른 사람과 잘 어울리는 사람, 누구..

2023. 7. 17. 02:57

데이터 해석학5 -오차와 확률분포-

1. 데이터의 변동 파악 측정 결과가 우연오차에 의해 변동이 생긴다고 하지만, 이 변동을 어떻게 다루어야할까? 몸무게의 참값이 50kg인 A가 몸무게를 10번 측정한 경우를 생각해보자. 편향은 무시하고, 우연오차만 결과에 영향을 미친다고 가정하자. 이 우연오차의 특징을 파악하기 위해 측정을 10000번 반복한다. 결과를 단순히 수직선 위에 그리면 보기 어렵기 때문에 히스토그램을 사용하여 표시 막대의 폭(구간)을 0.02kg으로 설정하고, 그 안에 들어간 데이터의 개수를 높이로 표시한다. 분할된 각 구간을 bin이라고 한다. 예를 들면, 측정된 값이 50.00~50.02kg의 범위에 포함된 횟수가 771번 처럼 전체를 세세하게 나눠서 세고 있다. 이 히스토그램은 산 모양을 나타내고 있는데, 이 측정을 계속..

2023. 7. 16. 02:29

데이터 해석학4 -우연오차와 편향-

1. 오차란 건강관리를 위해 매일 체중을 측정하고 기록하는 상황을 생각해보자. 실제 체중을 가능한한 정확하게 기록하고 싶지만, 정확한 체중계더라도 측정을 여러번 반복해보면 체중 값이 매번 조금씩 달라진다. 이런 상황을 '값에 변동이 있다'고 한다. 이 때, 진짜 체중의 값을 참값(true value)이라고 한다. 이 값은 절대 변하지 않는다. 그러므로 매번 체중계에서는 참값과는 다른 값이 표시되고 있다는 것이 된다. 좀 더 정확하게 측정하고 싶다면 입고 있는 옷의 무게도 빼야 한다는 것도 생각해야 한다. 이렇게 참값과 관측한 값의 차이를 오차(error)라고 한다. 2. 오차가 크면 정보가 사라진다 만일 체중계가 측정값이 측정할때마다 +-10kg씩 변동이 있다고 한다면, 매일 체중 변화를 기록하는데 아무..

2023. 7. 12. 02:51

데이터 해석학3 - 관계가 있는 것처럼 보이는 지표를 혼용하는 오류-

1. 관계가 있는 것처럼 보이는 지표를 혼용하지 않는다 데이터 분석 현장에서는 측정하기 어려운 것을 정량화 할 때 '측정하기 쉬운' 지표가 우선적으로 사용되는 경향이 있다. 하지만 이렇게 도입된 지표가 측정하려는 것을 반영하고 있지 않는 경우가 많다. 예를 들어 연구자나 연구기관의 '연구 실적'을 측정할 때, 획득한 연구비의 액수가 고려되는(많으면 많을수록 좋다) 경우가 자주 있지만, 이것은 연구활동의 인풋으로 사용되는 금액이며, 연구의 아웃풋과는 원래 따로 생각해야하는 지표이다. 즉, 사용한 금액에 비례해서 어느 정도 성과를 이루었는지에 대해서는 의미가 있는 지표이다. 이렇게 무엇인가의 아웃풋을 측정하고 싶은데, 측정하기 쉬운 입력과 관계있는 다른 양으로 대체하는 오류는 자주 보이는 오류중 하나이다. ..

2023. 7. 11. 03:08

데이터 해석학2 -측정은 왜 어려운가?-

1. 필요한 데이터가 전부 수집되는 것은 당연하지 않다. 최근에 다양한 것들이 디지털화되어 날마다 많은 양의 데이터가 생성되고 있다. 그래서 모든 것을 간단히 데이터로 수집할 수 있다는 착각에 빠지기 쉽지만, 오히려 관측하기 쉬운 데이터는 방대하게 생성되지만, 관측하기 어려운 데이터는 여전히 손에 넣기 어렵다. 따라서 효율적으로 의사결정이나 데이터 해석을 할 수 있도록 데이터 수집의 수준을 가능한한 높이는 것이 중요하다. 2. 추상적인 것을 측정해야할때 측정하고 싶은 것이 '인구'와 같이 이견의 여지가 없는 것이라면 아주 쉽지만, '신제품의 호감도', '사람의 지적능력'같이 조금이라도 추상적인 개념이 들어간다면 어떨까? 이렇게 수치화되어 있지 않은 것을 데이터화하려고 할 때는, '측정 가능한 것'으로 대..

2023. 7. 10. 01:27

데이터 해석학1 - 관측된 데이터가 항상 정확하지는 않다

1. 관측된 데이터가 항상 정확한 것은 아니다 데이터 분석의 목적은 수집한 데이터를 사람이 해석하고 이용할 수 있는 형태로 변환해서 분석 대상을 이해하거나 예측하는 것이다. 분석 대상으로부터 데이터를 수집하는 것이 관측(observation) 관측은 분석 대상으로부터 정보를 끄집어내는 작업이지만, 관측으로 얻은 데이터가 항상 정확하게 알고 싶은 정보를 반영하고 있지는 않다. 오히려 관측 과정에서 여러 의미로 왜곡된다 이러한 왜곡을 편향(bias)이라고 한다. 2. 쓰레기를 넣으면 쓰레기가 나온다 데이터 분석에서 "쓰레기를 넣으면 쓰레기가 나온다(Garbage in, garbage out.)"는 표현이 있다. 아무리 뛰어난 분석 방법이라도 분석할 데이터의 품질이 나쁘면 분석된 결과도 도움이 되지 않는다라는..